"""
您可以直接用语音向模型发出指令，无需输入文本指令。例如：如果音频中包含内容“这种环境下适合做什么”，
模型会回复适合做的事情，而不是返回这段语音的文本。
支持的音频文件
音频文件大小不超过10 MB。
音频的时长建议不超过30秒，如果超过30秒，模型会自动截取前30秒的音频。
音频文件的格式支持大部分常见编码的音频格式，例如AMR、WAV（CodecID: GSM_MS）、WAV（PCM）、3GP、3GPP、AAC、MP3等。
音频中支持的语言包括中文、英语、粤语、法语、意大利语、西班牙语、德语和日语。
"""
import dashscope

messages = [
    {
        "role": "user",
        "content": [
            {"audio": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20240916/kvkadk/%E6%8E%A8%E8%8D%90%E4%B9%A6.wav"}
        ]
    }
]

response = dashscope.MultiModalConversation.call(model='qwen-audio-turbo-latest', messages=messages)
print(response)